package com.office.util;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import java.io.File;
import java.io.IOException;

/**
 * @author 读取 pdf word ppt excel 等文件中的文字信息
 */
public class ReadFileTextUtil {

    /**
     * 需要传一个文件路径 必须是File 类型
     * @param file
     */
    public static String readOffice(File file) throws IOException, TikaException {
        Tika tika = new Tika();
        String fileText = tika.parseToString(file);
        return fileText;
    }
}
